4К 


УДК 004.032.26 


А.В. Кондратюк, К.В. Чумичкин 
Одесский национальный политехнический университет, г. Одесса, Украина 
акоп4@лКг.пеф, пеигозсвоо|(@пагод.га 


Показатель чувствительности нейронной сети 
к входным данным 


В статье исследуется проблема потери информативности входных данных на этапе синтеза 
искусственной нейронной сети при решении задач прогнозирования временных рядов. Предложен 
подход к решению данной проблемы, основанный на повышении чувствительности нейронной сети к 
входным данным путем анализа их статистических характеристик. Предложено решение актуальной 
задачи разработки показателя, определяющего степень чувствительности нейронной сети к значениям 
входных данных. Благодаря разработке такого показателя стало возможным определить виды входных 
данных, наиболее эффективно обрабатываемые нейронной сетью. Эффективность предложенного 
показателя обоснована и подтверждена теоретическими выкладками и проиллюстрирована наглядно на 
рисунках. Обозначены перспективы дальнейшего развития данного направления исследований. 


Введение 


В настоящее время всё более актуальными становятся задачи оптимизации, 
поиска, реализации распределенных и параллельных систем, а также задачи прог- 
нозирования. Многие из них при реализации математическими методами весьма 
трудоемки, а порой и вовсе не разрешимы и, следовательно, требуют к себе 
«особых» подходов, обладающих большей универсальностью и требующих менее 
детальной формализации. К числу таких подходов относятся нейросетевые методы 
обработки информации, которые нашли широкое применение в различных пред- 
метных областях. Такие преимущества нейросетевых методов, как слабая чувстви- 
тельность к шуму и пропускам в данных, возможность параллельной обработки 
данных высокой размерности, использование «обучения» вместо трудоемкой алгоритми- 
зации задач, и сделали их наиболее популярными, особенно при решении нетри- 
виальных задач интеллектуального анализа данных. 

Данная работа рассматривает входные данные, представленные в виде 
временного ряда (ВР), т.е. совокупности значений изменения некоторой величины с 
течением времени, и многослойные искусственные нейронные сети (ИНС) типа 
«многослойный персептрон», обучаемые с учителем по классическому алгоритму 
обучения (алгоритм обратного распространения ошибки) [1], [2]. Многослойный 
персептрон является универсальным средством аппроксимации, как показано в [3], а 
также обладает устойчивым поведением. 

В процессе синтеза ИНС существует три основных этапа: 

1 — формирование обучающей выборки (ОВ); 

2 — структурный синтез ИНС; 

3 — параметрический синтез (обучение) ИНС. 

Одним из наиболее важных этапов в решении задачи нейросетевого 
прогнозирования является формирование ОВ. От ее состава, полноты и качества в 
значительной мере зависят время обучения ИНС и достоверность получаемых 
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моделей. Поэтому, как правило, на данном этапе синтеза ИНС имеет место целый 
ряд различных предварительных преобразований, направленных на предобработку 
«сырых» исходных данных, а именно: восстановление пропущенных значений, 
вычитание шума, устранение незначащих факторов, сглаживание, фильтрация данных, 
расчет различных показателей, сортировки, группировки и ряд других операций [4]. 

Однако при обучении ИНС может иметь место потеря точности восстанов- 
ления функциональных зависимостей, которая вызвана неравномерной крутизной 
активационной функции нейрона (АФН) в диапазоне допустимых входных значений [5]. 

Кроме того, для большинства ИНС характерно наличие диапазона допустимых 
значений входных данных, в пределах которого они различимы [6]. АФН входного 
слоя ИНС определяет допустимые границы значений входных данных. 

Как правило, в допустимом диапазоне присутствуют как слабо заполненные 
участки, так и участки скученности значений входной величины. Слабо заполненные 
участки приводят к тому, что в процессе обучения ИНС плохо «запоминает» эти 
значения. А участки скученности, где на относительно небольших отрезках 
располагается значительное количество значений входной величины, оказываются 
слабо различимыми для ИНС. 

При этом возникает ситуация, когда ИНС воспринимает группу очень близко 
расположенных значений входной величины как одно значение, что соответственно 
приводит к понижению информационной энтропии входов ИНС. Это, в свою 
очередь, отрицательно сказывается на информативности входных данных, приводя к 
частичной их потере [5]. 

В то же время путем подстройки параметров данной АФН к особенностям 
распределения значений исследуемого ВР можно добиться учета его статистических 
характеристик и не допустить потерь в точности вычислений. 

Таким образом, возникает проблема учета статистических характеристик 
входных данных. Решением этой проблемы и целью данной работы является 
разработка показателя, определяющего степень чувствительности ИНС к значениям 
входных данных, т.е. уровень их различимости с точки зрения ИНС. 

Поскольку статистическая чувствительность ИНС к данным определяется 
типом АФН и её параметрами, то задачей настоящей работы является сокращение 
затрат времени на синтез ИНС путем разработки показателя чувствительности ИНС 
к статистическим характеристикам входных данных, что позволит заблаговременно, 
т.е. еще до этапа параметрического синтеза ИНС, оптимальным образом настроить 
параметры АФН и получить более быструю и адаптированную к специфике входных 
данных информационную систему интеллектуального анализа данных. 
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Как было отмечено выше, чувствительность ИНС к статистическим 
характеристикам входных данных определяет АФН. 

Рассмотрим идеализированную ситуацию, когда входные данные нормированы 
и распределены по нормальному закону распределения Е (х) и в качестве АФН 
входного слоя ИНС используется нормированная сигмоидальная АФН Е>(х) [7]. 

Под нормированием входных данных в данном случае понимается 
отображение значений входных данных в некоторый допустимый диапазон [а, 6], 
что на практике осуществляется с помощью предварительных преобразований на 
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этапе формирования ОВ (рис. 1). Пусть входные данные имеют нормальный закон 
распределения (1). Известно, что некоторая случайная величина Х распределена по 
нормальному закону (закону Гаусса) с параметрами т, с, если 

1 _@&-ту 


а 


2 ‚ХЕК (1) 
В случае, если т = 0, с = 1, распределение называется нормированным: 


2 


Ид =рте т ©) 


Под нормированной понимается такая АФН, у которой параметры подобраны таким 
образом, что область значений функции соответствует допустимому диапазону 
входных данных [а, 6] (рис. 1). 
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Рисунок 1 — График нормированной сигмоидальной АФН 


Экспериментально подобрав значения параметра @ сигмоидальной функции 


ЕО) = ——. (3) 


где а — коэффициент, определяющий кривизну функции, получим нормированную 
сигмоидальную АФН: 


1 
Е (х) =. 4 
5( ) Те е`Ъбх ( ) 
Первая производная функции (4) будет иметь вид: 
16е"* 
+ Хх) = Е $ 5 
По = рдяе (5) 


Функция распределения некоторой величины является ее исчерпывающей 
вероятностной характеристикой. Но она имеет недостаток, заключающийся в том, 
что по ней трудно судить о характере распределения этой величины в небольшой 
окрестности той или иной точки числовой оси. Более наглядное представление о 
характере распределения данной величины в окрестностях различных точек дается 
плотностью распределения. 
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Вспомним, что плотностью распределения Кх) некоторой величины Х в точке 
х называется производная ее функции распределения в этой точке. График 
плотности распределения Кх) называют кривой распределения: 


уд =Р'О) РО. (6) 


Пусть /(х) — функция плотности распределения входных данных, а №(х) — 


первая производная от АФН. Предположив, что в процессе обучения в результате 
подстройки коэффициентов на первом слое ИНС происходит масштабирование и 
сдвиг АФН с целью наиболее точного восстановления данных, введем в 
рассмотрение: 


До) =а <) +Ь, (7) 
гдеаи Ь - коэффициенты, минимизирующие отклонение: 
к= [|7 (<) - лох. (8) 


Таким образом, введенная величина К в данном случае будет численно 
характеризовать несоответствие между АФН входного слоя ИНС и входными 
данными в отношении их статистических характеристик и может служить 
показателем чувствительности ИНС к входным данным (рис. 2). 

Ниже приведено графическое пояснение изложенного вышге: на рис. 2 изображена 
идеализированная ситуация, а на рис. 3 — реальная. Нетрудно заметить, что чем 
больше площадь несовпадения (заштрихована), определяемая показателем К, тем 
хуже чувствительность ИНС к данному виду распределения входных данных. 


Рисунок 2 — График несовпадения нормированных функций: 
(>) — кривая нормального распределения входных данных (пунктиром); 


(>) — первая производная нормированной и отмасштабированной 


сигмоидальной АФН 


Наименьшее значение показателя чувствительности К будет свидетельствовать о 
наибольшем совпадении (рис. 3 и рис. 4), а также о наибольшей чувствительности 
ИНС с данной АФН к значениям исследуемого временного ряда (ВР). 
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Рисунок 3 — График несовпадения функций: сложного вида распределения 
(полимодального) и сигмоидальной АФН (пунктиром) 


Круг задач, решаемых ИНС 


Активационная функция нейрона (АФН) во многом определяет круг задач, 
которые ИНС может решать. В настоящее время выбор типа АФН крайне не 
формализован и, как правило, подбор АФН и настройка ее параметров производится на 
основании определенных видений эксперта на базе эвристических и эмпирических 
предпосылок. 

Используя предложенный в (8) показатель К, становится возможным довольно 
точно определить виды распределений входных данных, присущих тому или иному 
классу задач, наиболее успешно решаемых ИНС. Другими словами, теперь, зная 
величину показателя К, можно легко определить, насколько та или иная АФН 
подходит для обработки входных данных, имеющих известный закон распределения. 
Проведя данный анализ для каждой из основных АФН, можно для каждой из них 
определить класс задач, для которой они более всего подходят. 

Из определения показателя К, очевидно, вытекает рекомендация о 
нежелательности использования унифицированной АФН одного вида (будь то 
сигмоидальная или иная функция) к различным входным данным, имеющим разные 
виды распределений, как это принято делать в настоящее время, поскольку у 
унифицированной АФН отсутствует возможность полноценно и гибко выполнять 
свои передаточные функции из-за игнорирования статистических характеристик 
входных данных. Наглядно данная рекомендация проиллюстрирована попыткой 
наложить сигмоидальную АФН на кривую распределения входных данных, 
имеющих сложный вид распределения (рис. 3). 

Таким образом, в данной работе было показано, что, например, для входных 
данных, имеющих нормальный закон распределения, наиболее эффективной будет 
сигмоидальная АФН (рис. 2), в то время как для входных данных, имеющих 
равномерный закон распределения, наиболее эффективной будет линейная АФН. 

На практике входные данные обычно представлены сложными видами 
распределений, в частности полимодальным, антимодальным и др. В любом случае 
необходимо подбирать такие АФН и так настраивать их параметры, чтобы 
показатель К стремился к нулю. 

На основании идеи, изложенной выше, были составлены справочные 
материалы (табл. 1), включающие в себя данные о соответствии между различными 
видами распределений входных данных и основными типами АФН входного слоя 
ИНС, а также методика применения показателя К. 
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Таблица 1 — Типовые соответствия различных видов распределений входных 
данных и основных типов АФН входного слоя ИНС 


№ Название Функция Название Функция 
_ | распределения распределения АФН АФН 
1 |н р 
ормальное © = Ее ‚ хЕЮ 
Сигмоидальная Е<) = = 
По закону в 
2 а ы 
Лапласа ая 
0х<а 
Е(х)=0 
1 ЕВ . 2)хе (а,6] 

3 | Равномерное Л) =1Ь-а Линейная #29 

Е(х) = 
0,х& (а,Б) Ва 
З)х>Ь 
Е(х)=1 
0 
де", х>0 о 
4 | Показательное | Л(х)= м: Экспоненциальная| Р(х)=1-е 
,х < 


Методика применения показателя К 


Методику применения разработанного показателя К в общем случае можно 
представить в виде последовательности этапов: 
1. Исследование входных данных на предмет выявления их статистических 
характеристик. 
2. Определение вида распределения этих данных. 
3. Выбор одной из типовых ситуаций (табл. 1), т.е. определение наиболее 
подходящей АФН к данному виду входных данных. 
4. Соответствующая настройка АФН входного слоя данной ИНС. 
Приведенную методику следует применять в случаях, когда ИНС 
обрабатывает ВР, представленный значениями некоторой непрерывной величины. 
К перспективам развития идеи, изложенной в данной работе, следует отнести 
доработку методики применения предложенного показателя для случая обработки 
дискретных величин, а также расширение базы данных справочных материалов в табл. 1. 


Выводы 


В данной работе рассмотрена проблема потери информативности входных 
данных на этапе синтеза ИНС. Для ее решения предложен подход, позволяющий 
подбором АФН и специальной настройкой её параметров учитывать статистические 
характеристики входных данных, что, в свою очередь, позволило ввести и 
обосновать показатель чувствительности ИНС к статистическим характеристикам 
входных данных. 
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Разработка такого показателя чувствительности дала возможность определять 
круг задач, которые ИНС может решать наиболее эффективно, используя ту или 
иную АФН, а в перспективе — разработку метода, позволяющего сохранять исходную 
информативность входных данных. 
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Показник чутливост! нейроннот мереж! до вадних даних 

У статтр досллджена проблема втрати 1нформативност! вхлдних даних на етатш! синтезу штучнот 
нейронно! мереж! у вириценн! задач прогнозування часових рядв. Запропоновано шШдхд до 
вирппення дано! проблеми, заснований на шдвищенн! чутливост! нейронно! мереж! до вудних даних 
шляхом анал1зу 1х статистичних характеристик. Запропоновано виритення актуально! задач! розробки 
показника, що визначае стутшнь чутливост! нейронно! мереж! до значень вх!дних даних. Завдяки 
розробц! такого показника стало можливо визначити види вхдних даних, що найбльш ефективно 
обробляються нейронною мережею. Ефективисть запропонованого показника обтрунтована 1 шдтверджена 
теоретичними викладками та про1люстрована наглядно на рисунках. Визначен! перспективи 
подальшого розвитку даного напрямку досл1джень. 


О. КопагапиЕ, К. Спитус апт 

ЗепзшуНу Шшдех о? Меига! МеуотК 0 шриё аа 

Тве агафе 1$ деусе4 10 шуезизайоп оЁР фе рго ет оР шЮппайуйу дитр шриё дайа аё Фе засе оЁ 
агийс1ла| пепга! пебуойе зупез1$ Кг зо[аНоп оЁ Ве 1азК ог ите зепез$ рге@сНоп. ТБе пе\ арргоасВ {о 
зоТуе 15 {а5К 15 оНеге4 у/шсь 15 Базе оп пеига] пебмо!К зепзуйНу ю три дайа Бу апа[у$15 оР Фет айс 
свагасетзНс$. ТВе пе\ арргоасВ №0 5о[уе асла] {азК оЁ 4еуеюртепе ш4ех \сВ 15 дейпе4 Ше 4езтее оЁ 
зепзшуйу пеига| пебмогК {0 уаез оЁ при! даа. 1 Бесотез розз16е 1ю ш4сае е ог оЁ1приё даа о\уте 
{о деуеюртепе засн ш4ех \ысВ 1$ ргосеззе фе пло5ё еЙесйуе Бу пейга| пебмогк. Тве еЁЙчепсу о Фе 
оНеге4 шаех 1$ лазНЙе4 ап ргоуе4 Бу Феогейса| са1сшайоп$ ап@ Шазеаеа обулои$1у ш е р1с@гез. 
Регзресйуе оЁ Аш ег 4еуортепЕ оЁ 15 Атесйоп гезеагсь 15 п@саеа. 


Статья поступила в редакцию 30.11.2007. 
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